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(54) Eff izientes Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen 

(57) Die Erfindung betriftt ein Verfahren zur 
Geschwindigkeitsmodifikation von Sprachsignalen, ins- 
besondere digitalisierten Sprachsignalen. Bei diesem 
Verfahren wird ein analoges Sprachsignal digitalisiert 
und in einem Speicher gespeichert. AuGerdem wird ein 
Faktor a definiert. um den das Sprachsignal veriangert 
Oder verkurzt wird. Uber das Sprachsignal wird eine 
Fensterfunktion mit einem ersten steigenden Abschnitt, 
einem zweiten, sich direkt an den ersten Abschnitt 
anschlieBenden, konstanten Abschnitt und einem drit- 
ten, sich direkt an den zweiten Abschnitt anschlieBen- 
den, fallenden Abschnitt, gelegt. 
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Beschreibung 

Gegenstand der Erfindung ist ein Verfahren zur Geschwindigkertsmodrfikation von Sprachsignalen im Zeitbereich, 
insbesondere eine effiziente Overlap- Add-Methode. 

s in verschiedenen Bereichen der Verarbeitung von Sprach- und Audiosignalen ist eine Veranderung der Wiederga- 

begeschwindigkertdieser Signale erwunscht, moglichst ohne daB damit eine Beeintrachtigung ihrer Naturlichkeit und • 
im Fall von Sprache • ihrer Verstandlichkeit verbunden ware. Dieses Ziel, den Klangcharakter zu erhalten, kann man 
aus technischer Sicht folgenderma&en tormulieren: Trotz einer Modifikation der Zeitskala dieser Signale sollen ihre 
Kurzzeitspektraleigenschaffen unverandert bleiben. Insbesondere bedeutet das fur Sprachsignale, da3 Grundfrequenz 

io und Formanten bei der Geschwindigkeitsmodif ikation erhalten bleiben mussen. 

Die Zettstauchung Oder Zeitdehnung von Audiosignalen wird in Studios eingesetzt, zum Beispiel mit dem Ziel, Wer- 
besendungen auf die vorgesehene Lange zu trimmen. Auch in der Diktiertechnik ist die Anpassung der Wiedergabe- 
geschwindigkeit an die Bedurfnisse bzw. Fahigkerten der Schreibkraft von Bedeutung. Eine weitere Anwendung 
besteht bei der Echtzeitubertragung von Sprachsignalen. bei der Datenpakete mit variabler Verzogerung beim Empfan- 

is ger eintreffen. Durch Anwendung der Geschwindigkeitsmodif ikation kann man hier die Uber-Alles-Verzogerung im Mit- 
tel geringer halten als das Worst-Case Delay der Ubertragungsstrecke, ohne daB ein zu spat eintreffendes Datenpaket 
zu Aussetzern oder anderen, ahnlich storenden Effekten fuhren wurde. 

FOr viele Anwendungen ergeben sich neben dem Wunsch nach moglichst hoher Klangqualitat die folgenden zusatzli- 
chen Anforderungen an das Verfahren: 

20 Eine_ kostengflnstige Echtzeitrealisierung muB erzielbar sein, und es muB zur Laufzert eine nach MOglichkeit stu- 
fenlose Anderung des Geschwindigkeitsmodif ikationsfaktors mOglich sein. Von Vorteil ist ohne Zweifel auch, wenn der 
Algorithmus ohne eine stets fehlerbehaftete Pitch-Schatzung auskommt. 

Aus "Method for Time or Frequency Compression- Expansion of Speed", von G. Fairbaks und R. R Jaeger, Inst of 
Radio Engineers Trans, on Audio, Vol. AU-2, No. 1 pp. 7-12, Jan. 1954, sind erste Untersuchungen zur Sprachsignal- 

25 stauchung bzw. Sprachsignaldehnung bekannt. Hauf ig wurden seitdem Frequenzbereichsverfahren eingesetzt - nahe- 
liegend. da. wie eingangs erwahnt, die Kurzzeitspektraleigenschaften des Sprachsignals erhalten bleiben sollen. Seit 
Mitte der achtziger Jahre sind vergleichsweise einfache im Zeitbereich arbeitende Overlap-Add-Verfahren bekannt, mit 
denen sehr gut klingende zeitskaiierte Sprachsignale erzeugt werden kOnnen. 

In "Signal Estimation from Modified Short-Time Fourier Transform", von D. W. Griffin, in IEEE Trans. Acoust.. 

30 Speech. Signal Processing, Vol. ASSP-32, No. 2, pp. 236-242, Apr. 1984, berichten Griffin und Urn von Experimenten 
mit einer sehr aufwendigen iterativ arbeitenden Phasenbestimmung. Auf diesen Ansatz nimmt wiederum die VerOffent- 
lichung von S. Roucos und A. M. Wilgus "High Quality Time-Scale Modification for Speech", IEEE Proc. Int. Conf. 
Acoust.. Speech, Signal Processing, pp. 493-496, 1985, Bezug. die eine Zeitbereichsmethode vorschlagen. die mittels 
eines Overlap-Add-Ansatzes zeitskaiierte Sprachsignale erzeugt. Bei diesem sogenannten SOLA-Verfahren (SOLA = 

35 Synchronized OverLap-Add) erfolgt eine Synchronisation der in regelmaSigen Abstanden dem Originalsignal entnom- 
menen Abschnitte durch Verschiebung vor der jeweils entsprechenden Fensterung und Addition im Zielsignal. Dies ent- 
spricht im weiteren Sinne der Phasenoptimierung, wie sie in den Frequenzbereichsverfahren durchgefuhrt wird. Eng 
mit dem SOLA-Algorithmus verwandt ist das sogenannte WSOLA-Verfahren (WSOLA = Waveform Similarity- OverLap- 
-Add), das W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity (WSOLA) for 

40 High Quality Time-Scale Modification of Speed". IEEE Proc. Int. Conf. Acoust., Speech, Signal Processing, pp. 554- 
557, 1993, und "Waveform Similarity Based Overlap- Add (WSOLA) for Time- Scale Modification of Speech: Structures 
and Evaluation", Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, vorstellen. Der Hauptunter- 
schied zwischen diesen beiden Ansatzen besteht in der Synchronisation, die im WSOLA-Verfahren durch versetztes 
Entnehmen von Segmenten aus dem Originalsignal durchgefuhrt wird, was sich gegenuber dem SOLA-Prinzip vor 

45 allem aufwandsmindernd auswirkt. 



Aufgabe der Erfindung ist es, ein Verfahren zur Geschwindigkeitsmodif ikation von Sprachsignalen im Zeitbereich anzu- 
geben, das besonders eff izient arbeitet und gegenuber dem Stand der Technik weniger Aufwand erfordert. 

Diese Aufgabe wird durch die Merkmale der Anspruche 1 und 2 gelost. Vorteilhafte Ausgestaltungen der Erfindung 
so sind in der nachfolgenden Beschreibung angegeben. 

Die Erzeugung der mit dem Faktor a zeitskalierten Version y(k) eines Sprachsignals x(k) erfolgt gemaB der Syn- 
these 
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yW= X (*+Ma-1)L+A x )w(*-U) 
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mit einer Fensterfunktion 
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w(k) = 



v(k) fur 0<k<N 

I fur N <k< L 

l-v(*-L) fur L<k< L + N 

0 sonst 



is Die hierin vorkommende fur k=0 N-1 def inierte Funktion v(k) ist dabei sinnvollerweise zwischen ihren Extrema 

v(0)=g 0 mit0<£ 0 «1 und v(N-1 )=1-e l mit0<e 1 «1 monotonwachsend. 

Die angegebene w(k) -Definition stellt sicher, daB die fOr sinnvolles Overlap- Add notwendige Bedingung 

SO 

20 £ w(k-XL) m 1 V/C E {-00 Q0| 

Jl-co 



erfullt ist. 

25 Die in obiger Synthesegleichung enthaltene Verschiebevariable A x ist zwecks der erwahnten Synchronisation aus 

einem Toleranzbereich" -A™* A max zu bestimmen. 

Die prinzipieile Vorgehensweise ist wie folgt: 
Aus dem Originalsignal x(k) werden in - abgesehen von einem synchronisationsbedingten "Jitter" - regelmaBigen aL 
Werte betragenden Abstanden Segmente der Lange L+N entnommen und nach Gewichtung mit w(k) jeweils urn L Abt- 

30 astwerte versetzt aufaddiert. Das auf diese Weise erhaltene Signal y(k) ist gegenuber x(k) urn den Faktor a beschleu* 
nigt, das heiBt, daB eine im Originalsignal x(k) enthaltene AuBerung von K Abtastwerten Lange durch dieses Vorgehen 
auf einen y(k) -Abschnitt der Lange Kfa abgebtldet, also verkQrzt und damit in der Wiedergabe beschleunigt for a > 1 , 
bzw. vertangert, das hei(3t verlangsamt, wird, wenn a < 1 ist. 

Die Synchronisation der zu uberlappenden Abschnitte ist fur die resultierende Klangqualitat von groBer Bedeutung. 

35 Hierzu wird der folgende Ansatz verwendet: Wahrend der Abarbeitung des Verfahrens kann zu jedem dem Signal x(k) 
entnommenen Segment fur den nachsten Schritt als "Idealsegment" der urn L Abtastwerte versetzte Abschnitt von x(k) 
angesehen werden, da durch diese Want die Overlap-Add-Operation wieder das Originalsignal x(k) reproduzieren 
wurde. Die erwunschte Zeitskalierung erfordert nun aber, daB fur die Overlap- Add- Synthese i. a. ein anderer, gegen- 
uber dem "Idealsegment" versetzter Abschnitt von x(k) ausgewahlt wird. Die bestmttgliche Synchronisation ist gege- 

40 ben, wenn der fur die Overlap-Add-Operation benutzte Abschnitt grdGtmogliche Ahnlichkeit ("Waveform Similarity") mit 
dem "Idealsegment" aufweist. 

Als Kriterium fur die Ahnlichkeit der genannten Segmente bieten sich verschiedene MaBe an. Naheliegend ist bei- 
spielsweise die Benutzung des Korrelationskoeffizienten. Wahrend W. Verheist und M. Roelands in "An Overlap- Add 
Technique Based on Waveform Similarity (WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. 

45 Int. Conf. Acoust, Speech, Signal Processing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap-Add 
(WSOLA) for Time-Scale Modification of Speech: Structures and Evaluation" in Int. Conf. on Speech Communication 
and Technology, pp. 337-340, 1993, fur die Auswertung des AhnlichkeitsmaBes das komplette Segment der Lange L+N 
herangezogen haben, erscheint es als volikommen ausreichend, die Berechnung auf den Bereich der N Abtastwerte 
zu beschranken, in dem die Segmente tatsachlich uberlappen. 

so Fur die weiteren Darstellungen ist es hilfreich. die folgende Vektornotation einzufuhren: 

Der N Werte lange Abschnitt des "Idealsegments", in dem die Uberlappung mit dem neu zu bestimmenden Segment 
stattfinden wird, sei mit x bezeichnet, die ersten N Werte des verschobenen Segments mit Xq. Die Gewichtung dieses 
Abschnitts mit der steigenden Flanke des Fensters wird durch Multiplikation dieses Vektors mit einer Diagonalmatrix V 
reprasentiert. die mit den Werten v{0) v(N-i) besetzt ist. Entsprechend wird die Gewichtung des Idealsegmentab- 

55 schnitts x mit der fallenden Flanke des Fensters durch Multiplikation mit 1 - V dargestellt, wobei 1 die NxN-Einheitsma- 
trix bezeichnet. Der im kritischen Uberlappungsbereich aus der Overlap- Add-Synthese resultierende y(k)-Abschnitt 
lautet damit 
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y=(1-V)x + Vx q 



Beispielsweise laBt sich nun ais Ma 8 fur die Ahnlichkeit der hierbei beteiligten Komponenten eine Kreuzkorrelier- 
tenberechnung gemaG 



angeben. Die Maximierung dieses Ausdrucks bezuglich der sich in Xq wiederfindenden Verschiebung 8 e {-A™* 

75 ^max) liefert die fur das betrachtete Segment im Sinne des angesetzten Ahnlichkeitsma3es optimale Verschiebung A v 
Die Berechnung der C 6 erfordert alle L Abtastwerte 2N Multiplikationen fur die Vorabberechnung des Ausdrucks 

x T (1*V) T V sowie anschlieBend (2A ma **1)N Multiplikationen und Additionen. 

Dies stellt gegenuber W. Verhelst und M. Roelands in "An Overlap-Add Technique Based on Waveform Similarity 

(WSOLA) for High Quality Time-Scale Modification of Speed", in IEEE Proc. Int. Conf. Acoust. Speech, Signal Proces- 
20 sing, pp. 554-557, 1993, und "Waveform Similarity Based Overlap- Add (WSOLA) for Time-Scale Modification of 

Speech: Structures and Evaluation" in Int. Conf. on Speech Communication and Technology, pp. 337-340, 1993, eine 

Aufwandsreduktion urn den Faktor zwei dar, der sich fur L>N sogar noch erhoht. Die Beschrankung der Ahnlichkeits- 

berechnung auf den Bereich der Uberlappung hat keinerlei negative Auswirkungen auf die Qualitat der zeitskalierten 

Sprachproben. 

25 Ein anderer Ansatz fQr die Synchronisation ist, anstelle der Maximierung der "Waveform Similarity" den Fehler zwi- 
schen dem synthetisierten Signal y und dem Originalsignal x zu minimieren. Eine einfeche willkurliche Wahi ist. fur die- 
sen Fehler den quadratischen Ausdruck 

E fi ajx-ya 2 

30 

. anzusetzen. 

Bei Vernachlassigung der Vorabberechnung en belauft sich der fur die Auswertung von E 6 anfallende Aufwand auf 
( 2A max +1 ) 4N DSP-Operationen alle L Abtastwerte. Hierunter werden solche Operationen verstanden, die ein Signal- 
prozessor mit gangiger Architektur in einem Schritt abarbeiten kann. 
35 Ein weiterer Ansatz besteht darin. anstelle des absoluten Fehlers den relativen Fehler 

40 ■ 

zu minimieren, was als SNR-Maximierung interpretiert werden kann. (2A max +1)5N Operationen sind hier vor jeder 
Overiap-Add-Operation erforderlich. 

Patentanspruche 

45 

1 . Verfahren zur Geschwindigkeitsmodifikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen, bei 
dem 

- ein analoges Sprachsignal digitalisiert wird, wodurch ein digital isiertes Sprachsignal entsteht. welches in 
so einem Speicher gespeichert wird, 

- ein Faktor a definiert wird, urn welchen das Sprachsignal verlangert Oder verkurzt wird, 

eine Fensterfunktion mit einem ersten steigenden Abschnitt der Lange N, einem zweiten, sich direkt an den 
ersten Abschnitt anschlieSenden, konstanten Abschnitt der Lange L und einem dritten, sich direkt an den zwei- 
ten Abschnitt anschlie&enden. fallenden Abschnitt definiert wird. wobei bei einer Oberlagerung des ersten stei- 
55 genden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer 

Addition beider Abschnitte im Uberlappungsbereich. sich das Ergebnis eins ergibt. was dem Wert des zweiten 
Abschnittes der Fensterfunktion entspricht, 

- aus dem digitalisierten, gespeicherten Sprachsignal in unregelmaBigen Abstanden einer mittleren Lange aL 
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Segmente einer Lange L+N entnommen werden, 

- diese. aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion 
im Zeitbereich gewichtet werden 

- die gewichteten Segmente jeweils urn eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, 
s wodurch das so entstehende Sprachsignal urn den Faktor a verlangert bzw. urn 1/a verkurzt wird, 

dadurch gekennzeichnet, 

- daB nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal, das dort 
entnommene, mit der Fensterfunktion gewichtete, Segment mit dem nachfolgend entnommenen, ebenfalls mit 
der Fensterfunktion gewichteten, Segment unter Ahnlichkeitsaspekten verglichen wird, 

w - daB zum schnellen Vergleich der Ahnlichkeit der Segmente lediglich der N Werte lange dritte. mit dem fallen- 
den Fensterabschnitt gewichtete, Abschnitt des Segmentes mit dem jeweils ersten, mit dem steigenden N 
Werte langen Fensterabschnitt gewichteten Abschnrtten des nachfolgenden Segmentes verglichen wird, 

- daB diese Segmente zueinander versetzt aufaddiert werden, wenn die Ahnlichkeit beider verglichener Seg- 
mentteile maximal ist und 

is - daB zur Berechnung der Ahnlichkeit, als deren MaB, eine Korrelation verwendet wird. 

2. Verfahren zur Geschwindigkeitsmodif ikation von Sprachsignalen, insbesondere digitalisierten Sprachsignalen, bei 
dem 

20 - ein analoges Sprachsignal digitalisiert wird, wodurch ein digitalisiertes Sprachsignal entsteht. welches in 
einem Speicher gespeichert wird, 

- ein Faktor a def iniert wird, urn welchen das Sprachsignal verlangert Oder verkurzt wird, 

- eine Fensterfunktion mit einem ersten steigenden Abschnitt der Lange N. einem zweiten, sich direkt an den 
ersten Abschnitt anschlieBenden, konstanten Abschnitt der Lange L und einem dritten, sich direkt an den zwet- 

25 ten Abschnitt anschlieBenden, fallenden Abschnitt def iniert wird. wobei bei einer Uberlagerung des ersten stei- 

genden Abschnittes eines Fensters mit dem dritten fallenden Abschnitt eines anderen Fensters und einer 
Addition beider Abschnrtte im Uberlappungsbereich, sich das Ergebnis eins ergibt, was dem Wert des zweiten 
Abschnittes der Fensterfunktion entspricht, 

- aus dem digitalisierten, gespeicherten Sprachsignal in unregelmaBigen Abstanden einer mittleren Lange aL 
30 Segmente einer Lange L+N entnommen werden, 

- diese, aus dem digitalisierten, gespeicherten Sprachsignal entnommenen, Segmente mit der Fensterfunktion 
im Zeitbereich gewichtet werden , 

• die gewichteten Segmente jeweils urn eine definierte Anzahl von L Abtastwerten versetzt aufaddiert werden, 
wodurch das so entstehende Sprachsignal urn den Faktor a verlangert bzw. urn 1/a verkurzt wird, 
35 dadurch gekennzeichnet, 

- dafi nacheinander an den Stellen der Entnahme der Segmente aus dem digitalisierten Sprachsignal. das dort 
entnommene Segment mit dem Resultat der Synthese mit dem nachfolgend entnommenen Segment vergli- 
chen wird. . . 

- daB zum schnellen Vergleich der Abweichung des jeweiligen Syntheseresultats vom Ongmalsignal lediglich 
40 der N Werte lange dritte Abschnitt des zuletzt entnommenen Segmentes als Referenz herangezogen wird, 

- daB diese Segmente zueinander versetzt aufaddiert werden, wenn die ermittelte Abweichung minimal ist und 

- daB als MaB fur die Abweichung der relative Fehler oder der absolute quadratische Fehier herangezogen wird. 
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